[论文翻译]Detecting Everything in the Open World: Towards Universal Object Detection

您所在的位置:网站首页 everything chance的翻译 [论文翻译]Detecting Everything in the Open World: Towards Universal Object Detection

[论文翻译]Detecting Everything in the Open World: Towards Universal Object Detection

2023-07-05 03:39| 来源: 网络整理| 查看: 265

论文翻译:

Detecting Everything in the Open World: Towards Universal Object Detection

摘要:

在本文中,我们正式提出了通用目标检测,其目的是检测每个场景并预测每个类别。对人工标注的依赖、有限的视觉信息以及开放世界中新奇的类别严重制约了传统检测器的普适性。我们提出了UniDetector,一个通用的物体检测器,它具有识别开放世界中大量类别的能力。UniDetector通用性的关键点在于:1 )通过图像和文本空间的对齐,利用多源异构标签空间的图像进行训练,保证了通用表示的充足信息。2 )由于视觉和语言模态都提供了丰富的信息,它可以很容易地泛化到开放的世界,同时保持可见类和不可见类之间的平衡。3 )通过我们提出的解耦训练方式和概率校准,进一步提升了对新类别的泛化能力。这些贡献使得UniDetector在仅通过500个类别的训练后,能够检测超过7k个类别,这是迄今为止最大的可测量类别大小。我们的UniDetector在大型词汇数据集上表现出了强大的零样本泛化能力- -在没有看到任何对应图像的情况下,它比传统的有监督基线平均高出4 %以上。在包含各种场景的13个公开检测数据集上,UniDetector也仅用3 %的训练数据量就达到了目前最好的性能。

 图 1. 通用物体检测器示意图。它的目标是检测每个场景中的每个类别,并且应该能够利用具有异构标签空间的多个来源的图像进行训练,并将其推广到开放世界进行推理。

1、引言

通用目标检测旨在检测每个场景中的所有物体。尽管现有的目标检测器[ 18、31、42、43]已经取得了显著的进步,但是它们严重依赖于大规模的基准数据集[ 12、32]。然而,目标检测在类别和场景(也就是说,域)上各有不同。在开放世界中,与现有图像存在显著差异且出现未见类的情况下,为了保证目标检测器的成功,必须重新重建数据集,这严重制约了它们的开放世界泛化能力。相比之下,即使一个孩子在新的环境中也能快速地泛化。因此,普遍性成为人工智能与人类之间的主要鸿沟。经过训练后,一个通用的目标检测器可以直接在未知的情况下工作,而无需再进行训练,从而显著地接近使目标检测系统像人类一样智能的目标。

一个通用的目标探测器应具备以下两种能力。首先,它应该利用多源图像和异构标签空间进行训练。为了保证检测器能够获得足够的信息进行泛化,需要在分类和定位方面进行大规模的协同训练。理想的大规模学习需要用高质量的边界框标注和大类别词汇表尽可能多地包含多样化类型的图像。然而,受到人类注释者的限制,这是不可能实现的。在实际应用中,与小词汇量数据集[ 12、32]不同,大词汇量数据集[ 17、23]往往会被噪声标注,有时甚至会出现不一致的问题。相比之下,专门的数据集[ 8、55、70]只关注某些特定的类别。为了覆盖足够多的类别和场景,检测器需要从上述所有图像中学习,从具有异构标签空间的多个来源中学习,从而能够学习到全面和完整的知识以获得普适性。第二,要很好地推广到开放世界。特别是对于训练过程中没有标注的新类别,检测器仍然可以预测类别标签,而不会出现性能下降的情况。然而,单纯的视觉信息无法达到目的,完全的视觉学习需要人为标注强监督的学习内容。

在本文中,我们正式提出了通用目标检测的任务。要实现通用目标探测器的上述两种能力,需要解决两个相应的挑战。第一个是关于多源图像的训练。从不同来源收集的图像与异构的标签空间相关联。现有的检测器只能从一个标签空间预测类别,数据集特有的分类和数据集之间的标注不一致性使得多个异构标签空间难以统一。第二部分是关于新颖类别的辨析。受最近图文预训练[ 20、39、58]成功的启发,我们利用它们预训练的带有语言嵌入的模型来识别看不见的类别。然而,强监督训练使得检测器专注于训练过程中出现的类别。在推断时刻,模型将偏向于基类,并对新的类产生不自信的预测。尽管语言嵌入使得预测新类别成为可能,但它们的性能仍远不及基类别。

为了解决上述两个问题,我们提出了一个通用的目标检测框架UniDetector。借助语言空间,我们首先考察可能的结构来训练具有异构标签空间的检测器,发现分区结构在促进特征共享的同时避免了标签冲突。其次,为了利用区域提议阶段对新类别的泛化能力,我们将提议生成阶段和RoI分类阶段解耦,而不是联合训练它们。

这样的训练范式很好地利用了它们的特点,从而有利于检测器的普适性。在解耦的方式下,我们进一步提出了一个类不可知的局部化网络( CLN )来产生广义候选区域。最后,我们提出概率校准来消除预测偏差。我们估计所有类别的先验概率,然后根据先验概率调整预测的类别分布。校准很好地提高了新类的性能。

我们的主要贡献可以概括如下:

•我们提出了UniDetector,一个通用的检测框架,使我们能够利用异构标签空间的图像,并推广到开放的世界。据我们所知,这是第一个正式解决通用目标检测的工作。

•考虑到识别新类别的泛化能力差异,我们提出将建议生成和RoI分类的训练解耦,以充分发掘类别敏感特性。

•我们提出校准产生的概率,平衡预测的类别分布,提高新类别的自信心。

大量实验证明了UniDetector强大的通用性。它识别最可测量的类别。在没有从训练集中看到任何图像的情况下,我们的UniDetector在现有的大词汇量数据集上取得了比强监督方法高4 %的AP。除了开放世界任务,我们的UniDetector在封闭世界中取得了最先进的结果- -在COCO上使用纯CNN模型、ResNet50网络和1 ×日程表获得了49.3 %的AP。

2、相关工作

目标检测旨在预测图像中每个目标的类别标签和边界框坐标。现有的方法一般可以分为两阶段和一阶段方法。两级检测器主要包括RCNN [ 15 ]及其变体[ 4、14、18、43]。他们通常先提取一系列的区域建议,然后进行分类和回归。相比之下,一级检测器[ 31、33、42]直接对锚点生成分类结果。与这些方法不同的是,[ 26、50、61、67]等模型对于目标检测是无锚点的。近年来,基于变压器的方法[ 5、10、27、60、71]也得到了快速发展。然而,这些方法大多只能在封闭的世界中工作。

开放词汇目标检测。传统的目标检测只能检测在训练时出现的类别。在通用目标检测中,需要检测的类别无法事先知道。为此,零样本目标检测[ 1、40、68、69]被提出,旨在从可见类别泛化到不可见类别。然而,它们的性能仍然远远落后于强监督方法。在这些研究的基础上,开放词汇目标检测[ 57 ]向前推进了这项任务。通过涉及图像-文本对齐训练,来自文本的无界词汇有利于模型的泛化能力,用于检测新的类别。随着大规模图文预训练工作[ 20、39、58]的发展,最近的方法[ 11、13、16、37、63]考虑在开放词汇检测中采用这样的预训练参数,并在很大程度上提高性能和类别词汇量。尽管这些方法取得了成功,但现有的方法仍然以在单一数据集内进行迁移为目标。此外,他们看到的类别通常多于看不见的类别。它们的泛化能力因此受到限制。

多数据集目标检测训练。以往的目标检测方法只关注单一的数据集。由于只有一个数据集参与训练,因此数据集规模和词汇量都是有限的。最近,在多个数据集[ 3、46]上的训练被用来提高模型的鲁棒性和扩大检测器的词汇量。多数据集训练目标检测的难点在于利用多个异构的标签空间。为此,[ 62 ]利用伪标签来统一不同的标签空间,[ 53、66 ]采用分区结构,[ 36 ]利用语言嵌入。然而,这些方法仍然侧重于在封闭的世界中进行检测。与他们不同的是,我们的目标是在开放的世界中进行概括。

 图 2.UniDetector 概述。它由三个步骤组成。通过图像-文本预训练参数,UniDetector 使用具有多个标签空间的不同来源的图像进行训练。这样,它就可以直接在开放世界中进行检测进行推理。 “V”表示处理视觉信息的模块,“L”表示语言编码器。第一阶段进行图像-文本预训练以对齐两个空间,第二阶段以解耦的方式使用异构标签空间的图像进行训练,第三阶段应用概率校准来保持平衡。

3、准备工作

给定一幅图像I,目标检测旨在预测其标签y = { ( bi , ci) } m i = 1,该标签由边界框坐标bi和类别标签ci组成。我们通常给定一个数据集Dtrain = { ( I1 , y1),..,(式中, yn) },目标是在测试数据集Dtest上进行推理。

传统的目标检测只能工作在封闭的世界中,图像仅限于单一的数据集。数据集有自己的标签空间L。来自Dtrain或Dtest的每个对象类别ci属于同一个预定义的标签空间(即类词汇)L。

在这项工作中,我们提出了一个全新的目标检测任务,该任务关注检测器的普适性。在训练时,我们利用来自多个来源的图像。即异质标签空间L1,L2,..Ln的图像。在推断时刻,检测器从用户提供的一个新的标签空间Ltest中预测类标签。

传统目标检测的进步不能简单地适应我们的通用检测任务。主要原因是在推断时刻存在新颖类别:L novel = Ltest \ Sn i = 1Li。传统目标检测中的技术有利于基类Lbase = Sn i = 1 Li,但可能会伤害新的类别。因此,我们工作的核心问题是如何利用异质标签空间的图像,以及如何泛化到新的类别。

4、UniDetector框架

我们提出了UniDetector框架来解决通用的目标检测任务,如图2所示。基本流程包括三个步骤。

Step1:大规模图文对齐预训练。传统的仅有视觉信息的强监督学习依赖于人工标注,限制了普适性。考虑到语言特征的泛化能力,我们引入语言嵌入来辅助检测。受最近成功的语言-图像预训练的启发,我们涉及预训练的图像-文本模型[ 20、39、58、63]的嵌入。我们采用RegionCLIP [ 63 ]预训练参数进行实验。

Step2:异构标签空间训练。与传统的目标检测专注于具有相同标签空间的单个数据集不同,我们从具有异构标签空间的不同来源收集图像来训练检测器。各种训练图像对于探测器的通用性是必要的。同时,我们在训练过程中采用了解耦的方式,而不是之前的联合训练

Step3:开放世界推理。借助经过训练的对象检测器和测试词汇中的语言嵌入,我们可以直接在开放世界中进行检测以进行推理,而无需进行任何微调。然而,由于训练期间不会出现新的类别,因此检测器很容易生成信心不足的预测。我们提出概率校准,以保持此步骤中基本类别和新类别之间的推理平衡。

 图 3. 利用异构标签空间中的图像进行训练的可能结构。上面的方框表示训练的结构,下面的方框表示推理过程。这里所有的分类头都采用区域特征和语言嵌入之间的相似性。单独的结构训练各个网络并将它们集成以进行推理,统一的结构将多个数据集统一为一个数据集,分区的结构共享相同的主干但不同的分类头。

4.1 异构标签空间训练

现有的目标检测器由于其单一分类层,只能从具有一个标签空间的图像中学习。为了使用异构标签空间进行训练并获得足够多样化的信息以实现通用性,我们提出了三种可能的模型结构,如图 3 所示。

一种可能的结构是使用单独的标签空间进行训练。如图 3a 所示,我们在每个数据集(即标签空间)上训练多个模型。通过在推理时使用新的语言嵌入,每个模型都可以对测试数据进行推理。这些单独的测试结果可以组合起来以获得最终的检测框。另一种结构是将多个标签空间统一为一个标签空间,如图3b所示。然后我们就可以像以前一样处理这些数据了。由于图像被视为来自单个数据集,因此可以使用 Mosaic [2] 或 Mixup [59] 等技术对其进行处理,以促进不同标签空间之间的信息集成。借助用于分类的语言嵌入,我们还可以使用图 3c 中的分区结构,其中多个源的图像共享相同的特征提取器,但具有自己的分类层。在推理时,我们可以直接使用测试标签的类嵌入来避免标签冲突。

然后我们需要考虑数据采样器和损失函数。当数据大规模化时,一个不可避免的问题是它们的长尾分布[23,25,45]。像类感知采样器(CAS)[38]和重复因子采样器(RFS)[17]这样的采样器是封闭世界中多数据集检测的有用策略[66]。然而,对开放世界的性能没有影响。原因是这里的核心问题是关于新颖类。通过语言嵌入,长尾问题的不利影响可以忽略不计。因此我们采用随机采样器。

同样,equalized loss [48, 49] 和seesaw loss [52] 等损失函数对通用目标检测影响很小。相反,基于 sigmoid 的损失更合适,因为在 sigmoid 函数下,基本类别和新类别的分类不会相互干扰。为了避免类别数量增加时基于 sigmoid 的分类损失值过高,我们随机抽取一定数量的类别作为负类别。

解耦提案生成和 RoI 分类。两级目标检测器由视觉主干编码器、RPN 和 RoI 分类模块组成。给定来自数据集 D 的图像 I 和标签空间 L,网络可以概括为:{zij}|L| j=1 = ΦRoI ◦ ΦRP N ◦ Φbackbone, pij = 1/(1 + exp(−zT ijej/τ )), j ∈ L,其中 pij 是类别 j 的第 i 个区域的概率,{zij }|L| j=1表示RoI头的logit输出,ej是类别j的语言嵌入。

在通用检测方面,目标区域生成阶段和 RoI 分类阶段的行为不同。区域生成阶段保持了令人满意的通用性,因为其与类无关的分类可以很容易地扩展到新的类。相比之下,特定类别的 RoI 分类阶段甚至不能用于新类别。即使有语言嵌入,它仍然偏向于基类。不同的属性会影响它们的联合训练,因为分类阶段对新类的敏感性阻碍了建议生成阶段的通用性。因此,我们将这两个阶段解耦并单独训练它们以避免这种冲突。

具体来说,目标区域生成阶段使用传统的 ImageNet 预训练参数进行初始化,并以与类别无关的方式进行训练。训练后,它会产生一系列区域建议。使用生成的提案,RoI 分类阶段以 Fast RCNN [14] 方式进行训练。此阶段使用图像文本预训练参数进行初始化,用于预测未见过的类别。这两种预训练参数还包含互补的特征,为通用目标检测提供更全面的信息。

与类别无关的本地化网络。为了在开放世界中生成通用区域,我们提出了分类定位网络(CLN),如图 4 所示。我们的 CLN 不是单个 RPN 模块,而是包含 RPN 和 RoI 头,以生成通用目标检测的提案。这种网络促进了提案生成过程中的框细化。我们主要采用基于本地化的对象性来进行对象发现,因为与本地化相关的度量对于开放世界中的新对象往往具有鲁棒性[21]。在 RoI 头中,基于定位置信度,我们还保留二元分类,因为它为网络训练提供了强大的监督信号。对于第 i 个提案,将 RPN 的定位置信度表示为 sr1 i ,将 RoI 头的定位置信度表示为 sr2 i ,将其分类置信度表示为 sc i ,我们的 CLN 的最终置信度可以通过几何加权获得: ηi = ( s i )α · (sr1 i sr2 i )(1−α),其中α是预定义的超参数。

 图 4. 与类别无关的本地化网络的图示。定位置信度和与类别无关的分类共同有助于生成通用检测的建议。

4.2 开放世界推理

通过测试词汇 Ltest 的语言嵌入,我们经过训练的检测器可以直接在开放世界中进行推理。然而,由于训练期间仅出现基本类别,因此训练后的检测器将偏向基本类别。因此,检测结果中的基本类别框往往比新类别具有更大的置信度分数,从而在推理过程中占主导地位。考虑到新类别的数量巨大,对基类的过度自信很容易使检测器忽略大量新类别实例,从而损害检测器在开放世界中的性能。

为了避免偏差问题,我们提出了对预测进行后处理的概率校准。校准的目的是降低基本类别的概率,增加新类别的概率,从而平衡最终的概率预测。概率校准示意图如下:

 我们的概率校准主要是将原始概率除以类别j的先验概率πj。先验概率 πj 记录了网络对类别 j 的偏差。 γ 是预定义的超参数。 πj 越大,表明模型越偏向于该类别。校准后,其概率变小,有利于概率平衡。我们可以先对测试数据进行推理,利用结果中的类别数来得到πj。如果测试图像的数量太少而无法估计准确的先验概率,我们也可以使用训练图像来计算πj。

pij 来自方程1。 反映了第 i 个区域提案的特定类别预测。考虑到类无关任务的开放世界泛化能力,我们将 pij 与其来自 CLN 的客观性得分 etai 相乘作为检测得分。进一步引入超参数β后,最终检测得分为 sij = pβ ij η(1−β) i

5、实验 

为了证明 UniDetector 的通用性,我们在开放世界、传统封闭世界和野外进行实验并评估我们的 UniDetector。其在各种条件下的优越性能很好地说明了其通用性。

数据集。为了模拟多源和异构标签空间的图像,我们采用三种流行的对象检测数据集来训练检测器:COCO [32]、Objects365 [45] 和 OpenImages [25]。 COCO 包含来自人类对 80 个常见类别的密集且高质量的注释。 Objects365 规模更大,包含 365 个类。 OpenImages 由更多图像和 500 个类别组成,许多注释稀疏且肮脏。由于这些数据集规模较大,我们分别从其中随机采样 35k、60k 和 78k 图像进行训练。如果没有指定,我们都使用选定的子集。

我们主要在 LVIS [17]、ImageNetBoxes [24] 和 VisualGenome [23] 数据集上进行推理,以评估检测器的开放世界性能。考虑到其类别数量较大,这些数据集可以在一定程度上模拟开放世界环境。 LVIS v0.5 包含 1,230 个类别,LVIS v1 包含 1,203 个类别,验证集分别有 5,000 张图像和 19,809 张图像。 ImageNetBoxes 包含 3,000 多个类别。我们从数据集中随机抽取 20,000 张图像进行评估。为了与有监督的封闭世界基线进行比较,我们采样了 90,000 张图像作为训练集。最新版本的 VisualGenome 数据集包含 7,605 个类别。然而,由于它的大量注释来自机器,因此注释相当嘈杂。我们选择训练图像中未出现的 5,000 张图像进行推理。

评估指标。我们主要采用标准盒式AP来评估性能。对于 LVIS 数据集,我们还分别评估其稀有、常见和频繁类别的性能,表示为 APr、APc 和 APf。对于ImageNetBoxes数据集,由于其中的大多数图像都是以对象为中心的,除了AP和AP50指标之外,我们还采用ImageNet挑战[44]中的top-1定位精度(表示为Loc. Acc.)来评估检测器以对象为中心的分类能力。对于VisualGenome数据集,考虑到其注释的噪声和不一致,我们采用平均召回率(AR)指标进行评估。

实施细节。我们使用 mmdetection [7] 来实现我们的方法。如果没有其他说明,我们选择基于 ResNet50-C4 [19] 的 Faster RCNN [43] 作为我们的检测器,并使用 RegionCLIP [63] 预训练参数进行初始化。所有模型均按照 1× 计划进行训练,即 12 个 epoch。对于超参数,τ设置为0.01,γ设置为0.6,α、β均设置为0.3。

 表 1. UniDetector 在开放世界中的性能。我们在 LVIS、ImageNetBoxes 和 VisualGenome 上对其进行评估。 S、U、P表示将异构标签空间视为单独的空间、统一的空间或分区的空间。 Faster RCNN(封闭世界)行来自传统的有监督 Faster RCNN C4 基线,使用相同的随机数据采样器在相应数据集上进行训练。我们分别从 COCO、Objects365 和 OpenImages 中选择 35k、60k、78k 图像进行训练。

5.1 开放世界中的物体检测

我们在选项卡中列出了 UniDetector 的开放世界结果。 1. 为了进行比较,我们使用相同的 Faster RCNN C4 结构和随机数据采样器进行有监督的封闭世界实验。在 LVIS v0.5 数据集上,传统的监督检测器获得了 17.7% 的 AP。相比之下,我们的 UniDetector 仅具有 35k COCO 图像,获得了 16.4% 的 AP。仅使用 60k Objects365 图像,它就获得了 20.2% 的 AP。由于图像和注释类别明显减少,检测 AP 甚至更高。我们的 UniDetector 的有效性得到了证明:与相应的封闭世界检测器相比,它可以实现可比甚至更好的性能,同时所需的训练预算更少。另一个值得注意的结果是,传统的封闭世界检测器存在长尾问题——APr 只有 1.9%,而 APf 为 25.4%。相比之下,我们探测器的 APr 和 APf 明显更加平衡。这说明UniDetector也极大地缓解了长尾效应

然后我们分析不同结构对 COCO 和 Objects365 数据集的影响。我们使用 WBF [47] 为单独的标签空间集成两个检测器。在这种结构下,不同来源的图像在训练时无法交互,限制了特征提取能力。对于统一空间,不同数据集的标签不一致导致严重的缺失标注问题。尽管我们根据[62]采用伪标签并通过马赛克增强图像融合,但开放世界AP仍然没有改进。相反,通过分区结构,各种图像一起训练主干,从而促进特征提取。在分类时,划分的标签空间减轻了标签冲突。因此,分区结构在其中性能最好。

在分区结构下,COCO和Objects365联合训练取得了22.2%的AP,高于单一结果的16.4%和20.2%。我们还注意到,OpenImages 单次训练获得了 16.8% LVIS AP,仅略高于 COCO,甚至低于 Objects365。考虑到其中有更多的图像和类别,有限的性能可归因于其嘈杂的注释。然而,如果我们进一步将 OpenImages 图像添加到 COCO 和 Objects365 中,LVIS v0.5 AP 可以提高到 23.5%。此时,COCO和Objects365图像具有高质量的注释,而OpenImages提供了更多类别但有噪声的注释。多个来源的图像相互协作并带来各种信息,从而有助于更好的开放世界表现。这是异构标签空间训练相对于通用目标检测的最显着的优势。 LVIS v1 也观察到类似的结果趋势。

我们进一步在 ImageNetBoxes 和 VisualGenome 数据集上评估我们的 UniDetector。这两个数据集包含更多类别,从而更好地模拟开放世界环境。我们的 UniDetector 保持了出色的开放世界泛化能力。在 ImageNetBoxes 数据集上,它获得了 8.2% 的 AP,超过了具有可比训练图像的传统检测器的 3.9% AP。还值得一提的是,ImageNetBoxes 数据集和 COCO 风格数据集之间的领域差距相对较大,因为 ImageNetBoxes 图像主要以对象为中心。在这种情况下,我们的UniDetector仍然具有很好的泛化能力,这验证了我们的UniDetector的通用性。在类别数超过 7000 的 VisualGenome 数据集上,与传统的 Faster RCNN 相比,我们的 UniDetector 也获得了更高的检测结果。最显着的改进来自 AR100 指标,超过 4%。通过这个实验,揭示了我们的UniDetector的类别识别能力。

 表 2. UniDetector 在封闭世界中的性能。这些模型在 COCO train2017 上进行训练,设置为 1× 计划(12 个时期),ResNet50 主干网,并在 COCO val2017 上进行评估。 §:该方法使用额外的图像和更多的纪元。

5.2 封闭世界中的物体检测

通用的目标检测模型不仅应该很好地推广到开放世界,而且还应该在训练过程中看到的封闭世界中保持其优越性。因此,我们仅使用 COCO 训练集中的图像来训练 UniDetector,并在 COCO 2017 验证集上对其进行评估。我们将我们的结果与现有最先进的封闭世界检测模型进行比较,并在表 1 中展示检测 AP。 2. 在本小节中,我们将 R(Det)2 [29] 与级联结构 [4] 用于我们的检测器。对于我们的 CLN,我们引入了 Dyhead [9] 结构和焦点损失 [31] 进行分类。采用 AdamW [22, 34] 优化器,初始学习率为 0.00002。

借助 ResNet50 主干和 1× 调度,我们的 UniDetector 在纯基于 CNN 的结构中获得了 49.3% 的 AP。我们超越了最先进的 CNN 检测器 Dyhead [9] 6.3% AP。与 Softteacher [54](一种利用额外图像并进行更多 epoch 训练的半监督模型)相比,我们的 UniDetector 的 AP 也提高了 4.8%。与最近的基于变压器的探测器相比,性能优势也很明显。结果表明,我们的 UniDetector 不仅在开放世界中具有良好的泛化能力,而且在封闭世界中也保持着有效性。在开放世界和封闭世界上的优越性有力地证实了我们的UniDetector的通用性。

 表 3. 13 个 OdinW 数据集上的零样本性能。

 表 4. COCO 数据集上与现有开放词汇检测方法的比较。

5.3 野外物体检测 

为了进一步证明我们的 UniDetector 检测每个场景中所有内容的能力,我们按照[28]在 13 个 ODinW 数据集上进行实验。这些数据集涵盖了无人机、水下、热能等各个领域,因此也具有多种类别。这种特性使其适合测量探测器的通用性。我们在表 1 中列出了这 13 个数据集的平均 AP。 3. 与 GLIP-T 相比,GLIP-T 的主干网 (Swin-Tiny) 需要比我们的 (ResNet50) 多一点的预算,我们的方法实现了更高的平均 AP (47.3% vs 46.5%)。相比之下,我们的方法仅利用了 GLIP-T 3% 的数据量。该实验证实了UniDetector的通用性,并说明了其出色的数据效率。

 表 5. 在 LVIS v1 数据集上与现有开放词汇检测方法的比较。对于基于 LVIS 的训练,Detic 和我们的方法使用 LVIS 基础图像和来自 ImageNet 的图像级注释图像。对于无限制的开放词汇训练,我们仅使用 Objects365 中 10% 的图像。

 表 6. LVIS v0.5 数据集上区域提案生成的消融研究。这里列出的网络都是在 COCO 和 Objects365 数据集的子集上进行训练的。

5.4 与开放词汇方法的比较

我们对现有的openvocabulary作品的设置进行了实验,以便与它们进行公平的比较,以进一步展示我们的UniDetector的有效性,具体来说,COCO数据集和LVIS v1数据集分别以48/17和866/337的方式分割为基础和小说类。对于 LVIS 实验,我们采用与 Detic [64] 相同的 CenterNet2 [65] 结构和图像级注释图像进行检测学习,采用 Dyhead [9] 进行建议生成。表 4 和5中列出了新颖类和基类的框和掩码 AP。

获得的框 AP 有力地证明了我们的 UniDetector 对新类别的泛化能力。在 COCO 数据集上,我们获得了新类的 35.2% 框 AP,比之前最好的方法(来自 RegionCLIP 的 31.7%)高出了 3.5%。在 LVIS 数据集上,我们获得了新类(即本例中的 APr)的 29.3% 框 AP 和 26.5% 掩模 AP,分别比 Detic 好 2.6% 和 1.6%。对新类别的非凡改进验证了我们的方法对于未见过的类别的出色能力。值得一提的是,该实验设置只涉及一个检测数据集,我们的 UniDetector 甚至受到单一图像源的限制。当引入多个数据集进行训练时,我们的方法的优越性更加突出。仅使用 10% 的训练图像,我们在新颖类别方面就超过了 OWL-ViT 1.3%。比较很好地体现了普遍性。

 图 5. LVIS v0.5 数据集上概率校准的图示。我们在 LVIS 基础图像和来自 ImageNet 的图像级注释图像上训练 Centernet2 模型。

5.5 消融研究 

最后,我们在本小节中进行消融研究。这里我们主要分析解耦regionproposal生成和概率校准的效果。

解耦提案生成和 RoI 分类。标签。图6分析了解耦训练方式的效果。在 COCO 和 Objects365 上训练的普通 Faster RCNN 在 LVIS 上获得了 18.1% 的开放世界 AP。如果我们将两个阶段解耦,则盒子 AP 为 19.1%。 1.0%的AP改进表明解耦方式有利于开放世界检测,而这在传统封闭世界检测中不会发生。如果我们使用与类别无关的 Faster RCNN 提取区域提案,则 AP 为 19.7%。 0.6% 的改进表明同时具有 RPN 和 RoI head 的结构比单个 RPN 更适合在开放世界中生成提案。如果我们采用OLN[21],同样带有RoI头,LVIS AP仍然是19.7%,这表明纯定位信息不能带来进一步的改进。我们的 CLN 具有分类分数和本地化质量,贡献了 21.2% 的 AP。该AP不仅高于类似预算的网络,而且高于Cascade RPN等更复杂的模型。这证明了解耦学习方式和我们的 CLN 的有效性。

概率校准我们进一步分别测量新类别和基础类别的AP,以测试概率校准的能力。我们遵循 Detic [64] 在 LVIS v0.5 上的设置,并在图 5 中绘制框 AP 和掩模 AP。我们注意到,校准后,新类别上的框 AP 和掩模 AP 均显着提高,超过 2%。因此,基础类和新类之间的性能差距显着缩小。相比之下,基类的表现几乎保持不变。这是因为我们设计的先验概率显着降低了基类别的自信心。正如我们所看到的,概率校准减轻了训练模型的偏差,从而有助于在开放世界中生成更平衡的预测。

6、结论

在本文中,我们提出了 UniDetector,一种通用的目标检测框架。通过利用多个来源的图像、异构标签空间,并将检测器推广到开放世界,我们的 UniDetector 可以直接检测每个场景中的所有内容,而无需任何微调。对大词汇量数据集和多样化场景的大量实验证明了其强大的通用性——它表现出迄今为止识别最多类别的能力。普遍性是弥合人工智能系统和生物机制之间差距的重要问题。我们相信我们的研究将刺激未来沿着通用计算机视觉方向的研究。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3